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PROCEDE ET DISPOSITIF DE DETECTION D'ACTIV ITE VOCALE 

La presents invention concerne les techniques numeriques de 
traitement de signaux de parole. Elle concerne plus particulierement les 
techniques faisant appel a une detection d'activit§ vocale afin d'effectuer des 
5 traitements differencies selon que le signal supporte ou non une activite vocale. 

Les techniques numeriques en question relevent de domaines varies : 
codage de la parole pour la transmission ou le stockage, reconnaissance de la 
parole, diminution du bruit, annulation d'echo... 

Les methodes de detection d activite vocale ont pour principale 
10 difficulte la distinction entre I'activite vocale et le bruit qui accompagne le signal 
de parole. 

Le document W099/14737 decrit un precede de detection d' activite 
vocale dans un signal de parole numerique traite par trames successives, dans 
lequel on precede a un debruitage a priori du signal de parole de cheque trame 

15 sur la base d* estimations du bruit obtenues lors du traitement d'une ou 
plusieurs trames precedentes, et on analyse les variations d'energie du signal 
debruite a priori pour detecter un degre d' activite vocale de la trame. Le fait de 
proceder a la detection d'activite vocale sur la base d'un signal debruite a priori 
ameliore sensiblement les performances de cette detection lorsque le bruit 

20 environnant est relativement important. 

Dans les methodes habituellement utilisees pour detecter I'activite 
vocale, les variations d'energie du signal (direct ou debruite) sont analysees 
par rapport a une moyenne a long terme de I'energie de ce signal, une 
augmentation relative de I'energie instantanee suggerant I'apparition d'une 

25 activite vocale. 

Un but de la presente invention est de proposer un autre type 
d" analyse permettant une detection d'activite vocale robuste au bruit pouvant 
accompagner le signal de parole. 

Selon I'invention, il est propose un proced§ de detection d'activite 

30 vocale dans un signal de parole numerique dans au moins une bande de 
frequences, suivant lequel on detecte I'activite vocale sur la base d'une analyse 
comprenant une comparaison, dans ladite bande de frequences, de deux 
versions differentes du signal de parole dont I'une au moins est une version 
debruitee. 

35 Ce precede peut §tre execute sur toute la bande de frequence du 
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signaJ, ou par sous-bandes, en fonction des besoins de T application utilisant la 
detection d'activite vocale. 

L'activite vocale peut etre detectee de maniere binaire pour cheque 
bande, ou mesuree par un parametre variant continument et pouvant resulter 
5 de la comparaison entre les deux versions differentes du signal de parole. 

La comparaison porte typiquement sur des energies respectives. 
evaluees dans ladite bande de frequences, des deux versions differentes du 
signal de parole, ou sur une fonction monotone de ces energies. 

Un autre aspect de la presente invention se rapporte a un dispositif de 
10 detection tf activite vocale dans un signal de parole, comprenant des moyens 
de traitement de signal agences pour mettre en oeuvre un precede tel que 
defini ci-dessus. 

U invention se rapporte encore a un programme d'ordinateur, 
chargeable dans une memoire associee a un processeur, et comprenant des 
15 portions de code pour la mise en oeuvre d'un precede tel que defini ci-dessus 
lors de F execution dudit programme par le processeur, ainsi qu'a un support 
informatique. sur lequel est enregistre un tel programme. 

D'autres particularites et avantages de la presente invention 
apparaitront dans la description ci-apres d'exemples de realisation non 
20 limitatifs, en reference aux dessins annexes, dans lesquels : 

- la figure 1 est un schema synoptique d'une chaine de traitement de 
signal utilisant un detecteur tf activite vocale selon T invention ; 

• la figure 2 est un schema synoptique tf un exemple de detecteur tf activite 
vocale selon invention ; 
25 - les figures 3 et 4 sent des organigrammes d'operations de traitement de 

signal effectuees dans le detecteur de la figure 2. 

- la figure 5 est un graphique montrant un exemple tf evolution tf energies 
calculees dans le detecteur de la figure 2 et illustrant le principe de la 
detection tf activite vocale ; 

30 - la figure 6 est un diagramme d'un automate de detection mis en oeuvre 

dans le detecteur de la figure 2 ; 

- la figure 7 est un schema synoptique tfune autre realisation tfun 
detecteur tf activite vocale selon T invention ; 

- la figure 8 est un organigramme tf operations de traitement de signal 
35 effectuees dans le detecteur de la figure 7 ; 
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- la figure 9 est un graphique d'une fonction utilises dans les operations de 
la figure 8. 

Le dispositif de la figure 1 traite un signal num^rique de parole s. La 
chalne de traitement de signal representee produit des decisions d'activite 
5 vocale 5n i utilisables de iagon connue en soi par des unites d' application, non 
representees, assurant des fonctions telles que codage de la parole, 
reconnaissance de la parole, diminution du bruit, annulation d'echo... Les 
decisions 5n : peuvent comporter une resolution en frequence (index j), ce qui 
permet d'enrichir des applications fonctionnant dans le domaine frequentiel. 
10 Un module de fenetrage 10 met le signal s sous forme de fenetres ou 

trames successives d' index n, constituees chacune d'un nombre N 
d'§chantillons de signal numerique. De lagon classique, ces trames peuvent 
presenter des recouvrements mutuels. Dans la suite de la presente description, 
on considerera, sans que ceci soit limitatif. que les trames sont constituees de 
15 N = 256 echantillons a une frequence d'echantillonnage de 8 kHz, avec une 
ponderation de Hamming dans chaque fenetre, et des recouvrements de 50 % 
entre fenetres consecutives. 

La trame de signal est transform§e dans le domaine frequentiel par un 
module 11 appliquant un algorithme classique de transformee de Fourier 
20 rapide (TFR) pour calculer le module du spectre du signal. Le module 11 
delivre alors un ensemble de N = 256 composantes frequentielles du signal de 
parole, notees f. ou n designe le numero de la trame courante. et f une 
frequence du spectre discret. Du fait des proprietes des signaux numeriques 
dans le domaine frequentiel, seuls les N/2 = 128 premiers echantillons sont 
25 utilises. 

Pour calculer les estimations du bruit contenu dans le signal s, on 
n'utilise pas la resolution frequentielle disponible en sortie de la transformee de 
Fourier rapide, mais une resolution plus faible, determinee par un nombre I de 
sous-bandes de frequences couvrant la bande [0, FJ2] du signal. Chaque 
30 sous-bande i (1 ^ i < I) s'etend entre une frequence inferieure f(i-1) et une 
frequence superieure f(i), avec f(0) = 0, et f(l) = F 12. Ce decoupage en sous- 
bandes peut etre uniforme (f(i)-f(i-1) = Fe/21). II peut 'galement §tre non 
uniforme (par exemple selon une echelle de barks). Un module 12 calcule les 
moyennes respectives des composantes spectrales S^j du signal de parole 
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par spus-bandes, par exemple par une ponderation uniforme telle que : 

Snj= y Snf 

Ce moyennage diminue les fluctuations entre les sous-bandes en 
moyennant les contributions du bruit dans ces sous-bandes, ce qui diminuera 
5 la variance de Testimateur de bruit. En outre, ce moyennage permet de 
diminuer la complexite du systeme. 

Les composantes spectrales moyennees Sp j sont adressees a un 

module 15 de detection d'activite vocale et a un module 16 d' estimation du 
bruit. On note Bnj Testimation a long terme de la composante de bruit produite 
10 par le module 16 relativement a la trame n et a la sous-bande i. 

Ces estimations a long terme B^j peuvent par exemple etre obtenues 

de la maniere decrite dans W099/14737. On peut aussi utiliser un simple 
lissage au moyen d'une fenetre exponentielle definie par un facteur tfoubli >^ : 

15 avec egal a 1 si le detecteur d'activite vocale 15 indique que la sous-bande i 

porte une activite vocale, et egal a une valeur comprise entre 0 et 1 sinon. 

Bien entendu, il est possible rf utiliser d'autres estimations a long terme 
representatives de la composante de bruit comprise dans le signal de parole, 
ces estimations peuvent representer une moyenne a long terme, ou encore un 
20 minimum de la composante j sur une fenetre glissante suffisamment longue. 

Les figures 2 a 6 illustrent une premiere realisation du detecteur 
d'activite vocale 15. Un module de debruitage 18 execute, pour chaque trame n 
et chaque sous-bande i. les operations correspondant aux etapes 180 a 187 de 

la figure 3. pour produire deux versions debruitees Ep-j^nJ . ^P2.n,i du signal de 

25 parole. Ce debruitage est opere par soustraction spectrale non-lineaire. La 

premiere version Epi ©st debruitee de fagon a ne pas etre inferieure, dans 

le domaine spectral, a une fraction plj de Testimation a long terme B^.^-i j. La 
seconde version Ep2,n,i ®st debruitee de fagon a ne pas etr inf 'rl ure, dans le 
domaine spectral, a une fraction p2j de Testimation a long terme Bp.^-j j. La 
30 quantite tl est un retard exprime en nombre de trames, qui peut etre fixe (par 



exemple t1 = 1) ou variable. II est d'autant faible qi/on est confiant dans la 
detection d'activite vocale. Les fractions pij et ^2^ (telles que pij > ^2{) peuvent 
etre dependantes ou ind§pendantes de la sous-bande i. Des valeurs preferees 
correspondent pour pi-, a une attenuation de 10 dB, et pour (32-, a une 
attenuation de 60 dB, soit pi; « 0,3 et ^2; » 0,001 . 

A I'etape 180, le module 18 calcule, avec la resolution des sous- 
bandes i, la reponse en frequence HPn ^ du filtre de debruitage a priori, selon : 

Sn.i-°^n -Tl.iBn-Tl.i 
•^Pn.i = ^ 

OU x2 est un retard entier positif ou nul et a'^j est un coefficient de 
surestimation du bruit. Ce coefficient de surestimation a'^j peut etre dependant 
ou independent de I* index de trame n et/ou de I' index de sous-bande i. Dans 
une realisation preferee, il depend S la fois de n et i. et il est determine comme 
decrit dans le document W099/14737. Un premier debruitage est effectue a 
I'etape 181: Epn.j = Hp^ j-S^ j. Aux etapes 182 a 184, les composantes 
spectrales Epi_n.i sont calculees selon Epi.n.i =max(Epn,i ; plj.Bn-xi.i), et aux 
etapes 182 a 184, les composantes spectrales Ep2,n.i sont calcul6es. selon 

Ep2.n.i ="^ax(Epn.i; p2i.Bn_xi.i)- 

Le detecteur d'activite vocale 15 de la figure 2 comporte un module 19 
qui calcule des energies des versions debruitees du signal Epi,n.i ®t ^P2.n.l. 
respectivement comprises dans m bandes de frequences designees par I' index 
j (1 < j < m, m > 1). Cette resolution peut etre la meme que celle des sous- 
bandes definies par le module 12 (index i), ou une resolution moins fine 
pouvant aller jusqu'a I' ensemble de la bande utile [0, f^/l] du signal (cas 
m = 1). A titre d" exemple. le module 12 peut definir 1 = 16 sous-bandes 
uniformes de la bande [0, fJ2], et le module 19 peut conserver m = 3 bandes 
plus larges, chaque bande d' Index j couvrant les sous-bandes d' index i allant 
de iminO) a imaxO). avec imin(1) = 1. iminG+1) = imax(j) + 1 pour 1 < j < m. et 
imax(m) = I. A I'etape 190 (figure 3). le module 19 calcule les energies par 
bande : 



-6- 

imaxQ) 

Ei.n.j= 2] [f(i)-f(i-1)].Ep,2^i 

i=iminO) 

imaxQ) 

E2.nj= E [^(0-f(i-1)l.Ep^„,i 

i=imin(j) 

Un module 20 du detecteur tfactivite vocale 15 effectue un lissage 
temporel des energies E-|^ j et E2 Pour chacune des bandes tf index j, ce qui 

5 correspond aux etapes 200 a 205 de la figure 4. Le lissage de ces deux 
energies est effectue au moyen d'une fenetre de lissage determinee en 
comparant Tenergie ^2ni version la plus debruitee a son energie lissee 

precedemment calculee E2,n-ij. ^ une valeur de Tordre de cette energie 

lissee E2,n-ij (tests 200 et 201). Cette fenetre de lissage peut etre una fenetre 

10 exponentielle definie par un facteur d'oubli X compris entre 0 et 1. Ce facteur 
d'oubli X peut prendre trois valeurs : Tune X^. tres proche de 0 (par exemple 

X^ = 0) choisie a Tetape 202 si E2^„ j ^ £2.0-1 j I seconde X^ tres proche de 1 

(par exemple X^ = 0,99999) choisie a Tetape 203 si E2 > A. E2^n-i.j. A etant 

un coefficient plus grand que 1 ; et la troisieme X^ comprise entre 0 et X^ (par 

15 exemple Xp = 0,98) choisie a Tetape 204 si E2,n-i,j < ^2 nj - ^- ^2,n-1J- Le 

lissage exponentiel avec le facteur tf oubli X est ensuite effectue classiquement 
a Tetape 205 selon : 

Ei.nj = Ei,n-1.j + (1-^) Ei^nj 

E2,nJ =^E2,n-1.j +(1-^)-£2.nj 
20 Un exemple de variation dans le temps des energies pj, E2 nj ®t des 

energies lissees E-i et E2,nj est represents sur la figure 5. On voit qu'on 

arrive a un bon suivi des energies lissees lorsqu'on determine le facteur d'oubli 
sur la base des variations de Tenergie E2 correspondant a la version la plus 

debruitee du signal. Le facteur tf oubli Xp permet de prendre en compte les 

25 augmentations de niveau du bruit de fond, les diminutions d'energie etant 
suivies par le facteur tf oubli X^ Le facteur tf oubli X^ tres proche de 1 fait que 

les energies lissees ne suivent pas les augmentations d'energies brusques 
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dues a la parole. Le facteur reste toutefois legerement inferieur a 1 pour 
eviter les erreurs causees par une augmentation du baiit de fond pouvant 
survenir pendant une assez longue periode de parole. 

L'automate de detection d'activite vocale est controle notamment par 
un parametre resultant d'une comparaison des energies et Ej^pj- Ce 

parametre peut notamment §tre le rapport d^j = nj/Ej^nj- On voit sur la 
figure 5 que ce rapport d^ j permet de bien detecter les phases de parole 

(representees par des hachures). 

Le controle de l'automate de detection peut egalement utiliser d'autres 
parametres, tefs qu'un parametre lie au rapport signal-sur-bruit : 
snr • = E. /El n l • Le module 21 de controle des automates relatifs aux 
differentes bandes d'index j calcule les parametres d^j et snr^j a I'etape 210. 
puis determine I'etat des automates. Le nouvel etat de l'automate relatif a la 
bande j depend de T^tat precedent 5n.i j. de d^j et de snr^j, par exemple 

com me indique sur le diagramme de la figure 6. 

Quatre etats sont possibles : 6j = 0 detecte le silence, ou absence de 

parole ; 6j=2 detecte la presence d'une activite vocale ; et les etats 5j = 1 et 

5j = 3 sont des etats intermediaires de montee et de descente. Lorsque 

l'automate est dans I'etat de silence (5n.i j = 0), il y reste si d^ j depasse un 

premier seuil alj, et il passe dans I'etat de montee dans le cas contraire. Dans 

I'etat de montee (6n.i j= 1). il revient dans I'etat de silence si d^j d§passe un 

second seuil cx2j ; et il passe dans I'etat de parole dans le cas contraire. 

Lorsque l'automate est dans I'etat de parole (5n.i j = 2), il y reste si snr^j 

depasse un troisieme seuil a3j, et il passe dans I'etat de descente dans le cas 

contraire. Dans I'etat de descente (5n.i j = 3). l'automate revient dans l'§tat de 

parole si snr^j depasse un quatrieme seuil a4j, et il revient dans I'etat de 

silence dans le cas contraire. Les seuils a1j, (x2j, aSj et a4j peuvent §tre 

optimises separement pour chacune des bandes de frequences j. 

II est egalement possible que le module 21 fasse interagir les 
automates relatifs aux differentes bandes. 

En particulier, il peut forcer a I'etat de parole les automates relatifs a 
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chacune des sous-bandes des lors que Tun rfentre eux se trouve dans Tetat de 
parole. Dans ce cas, la sortie du detecteur d'activite vocale 15 concerne 
rensemble de la bande du signal. 

Les deux annexes a la presente description montrent un code source 
5 en langage C++, avec une representation des donnees en virgule fixe, 
correspondant a une mise en oeuvre de Texemple de precede de detection 
d'activite vocale decrit ci-dessus. Pour realiser le detecteur, une possibilite est 
de traduire ce code source en code executable, de Tenregistrer dans une 
memoire de programme associee a un processeur de traitement de signal 

10 approprie, et de le faire executer par ce processeur sur les signaux tf entree du 
detecteur. La fonction a jpriorijsignal _power presentee en annexe 1 
correspond aux operations incombant aux modules 18 et 19 du detecteur 
d'activlte vocale 15 de la figure 2. La fonction voicejactivityjdetector presentee 
en annexe 2 correspond aux operations incombant aux modules 20 et 21 de ce 

15 detecteur. 

Dans I'exemple particulier des annexes, les parametres suivant ont ete 
employes: t1 = 1 ; x2 = 0 ; pij = 0.3; ^2, = 0.001 ; m = 3; A = 4.953; 

A.p = 0.98; = 0.99999; = 0 ; alj = a2j = a4j = 1.221 ; a3j = 1.649. Le 

Tableau i ci-apres donna les correspondences entre les notations employees 
20 dans la precedente description et dans les dessins et celles employees dans 
r annexe. 



-9- 



subband 


1 


Cl[SUUUar lUJ 


S • 


module 


Epn.i bu Epi.n.i ou Ep2.n.i 


param.beta__ajDriori1 




param . beta_a_priori2 




vad 


j-1 


param.vad_number 


m 


P1[vad] 




r 1 5[vaUJ 




P2[vad] 


'=2.nj-1 


P2s[vadl 


^2.n.j-1 


DELTA_P 


Log(A) 


d 


Log(dnj) 


snr 


Log(snrn =) 


NOISE 


etat de silence 


ASCENT 


etat de montee 


SIGNAL 


etat de parole 


DESCENT 


etat de descente 


n NOISE 


Loa(cx1 1) 


D_SIGNAL 


Log(a2j) 


SNR_SIGNAL 


Log(a3j) 


SNR_NOISE 


Log(a4j) 



TABLEAU I 



Dans la variante de realisation illustree par la figure 7, le module de 
debruitage 25 du detecteur d'activlte vocale 15 delivre une seule version 
debruitee Epnj du signal de parole, pour que le module 26 en calcule I'energie 
5 Eo • pour chaque bande j. L' autre version dont le module 26 calcule r§nergie 
est directement representee par les echantillons non debruites j. 

Comme preced mment, diverses methodes de debruitage p uvent etre 
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appliquees par le module 25. Dans Texemple illustre par les etapes 250 a 256 
de la figure 8, le debruitage est opere par soustraction spectrale non-lineaire 
avec'un coefficient de surestimation du bruit dependant d'une quantite p liee au 
rapport signal-sur-bruit. Aux etapes 250 a 252, un debruitage preliminaire est 
5 effectue pour cheque sous-bande d index i selon : 

Sn.i =max(Sn.i -a.Bn-1.i; P Bn-u). 

le coefficient de surestimation preliminaire etant par exemple a = 2. et la 
fraction p pouvant correspondre a une attenuation du bruit de I'ordre de 10 dB. 

La quantite p est prise egale au rapport S'^ /Sp j a Tetape 253. Le 
10 facteur de surestimation f(p) varie de fa9on non-lineaire avec la quantity p, par 
exemple comme represents sur ia figure 9. Pour les valeurs de p les plus 
proches de 0 (p < p-,), le rapport signal-sur-bruit est faible, et on peut prendre 

un facteur de surestimation f(p) = 2. Pour les valeurs les plus elevees de p 
(p2 ^ P ^ 1), le bruit est faible et n'a pas besoin d'etre surestime (f(p)=1). Entre 
15 Pi et p2. f(p) decroit de 2 a 1, par exemple lineairement. Le debruitage 
proprement dit, fournissant la version Epnj, est effectue aux etapes 254 a 

256 : 

Ep„ j =max{Sn.i -f(p).Bn-ti: P-Bp-ij). 

Le detecteur tfactivite vocale 15 considere en reference a la figure 7 
20 utilise, dans chaque bande de frequences rf index j (et/ou en pleine bande). un 
automate de detection a deux etats, silence ou parole. Les energies E^ pj et 

^2nj calculees par le module 26 sont respectivement celles continues dans 
les composantes j du signal de parole et celles contenues dans les 
composantes debruitees Epnj calculees sur les differentes bandes comme 

25 indique a Tetape 260 de la figure 8. La comparaison des deux versions 
differentes du signal de parole porte sur des differences respectives entre les 
energies E-j ^ j et E2 nj et un minorant de Tenergie E2 nj de la version 
debruitee. 

Ce minorant E2fy,jnj peut notamment correspondre a une valeur 
30 minimale, sur une fenetre glissante. de Tenergie E2 nj de la version debruitee 
du signal de parole dans la bande de frequences consideree. Dans ce cas, un 
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module 27 stocke dans une memoire de type premier entre - premier sorti 
(FIFO) les L valeurs les plus recentes de I'energie E2 nj du signal debruite 
dans cheque bande j, sur une fenetre glissante representant -par exemple de 

I'ordre de 20 trames, et delivre les energies minimales E2min,j = J^}"^. ^a.n-kj 

0£k<L 

5 sur cette fen§tre (etape 270 de la figure 8). Dans cheque bande, cette energie 
minimale Egminj ^ert de minorant pour le module 28 de controle de I'automate 

... . ^2,n,j ~^2min,j ... ^ 

de detection, qui utilise une mesure M: donnee par Mj = — (etape 

»=1,n,j ~^2mln.j 

280). 

L'automate peut etre un simple automate binaire utilisant un seuil Aj, 
10 dependant 6ventuellement de la bande consideree : si Mj > Aj. le bit de sortie 
5_ i du detecteur represente un etat de silence pour la bande j, et si Mj <. Aj, il 
represente un etat de parole. En variante, le module 28 pourrait delivrer une 
mesure non binaire de I' activity vocale, representee par une fonction 
decroissante de Mj. 

15 En variante, le minorant Egminj "^'''se a I" etape 280 pourrait etre calcule 

a I'aide d'une fenetre exponentielle, avec un facteur d'oubli. II pourrait aussi 
etre represente par I'energie sur la bande j de la quantite p.Bn-u servant de 

plancher dans le debruitage par soustraction spectrale. 

Dans ce qui precede, 1' analyse effectuee pour decider de la presence 
20 ou de r absence d'activite vocale porta directement sur des energies de 
versions differentes du signal de parole. Bien entendu, les comparaisons 
pourraient porter sur une fonction monotone de ces energies, par exemple un 
logarithme, ou sur une quantite ayant un comportement analogue aux energies 
selon I'activite vocale (par exemple la puissance). 
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ANNEXE 1 



/ 



* description 

* NSS module: 

* signal power before VAD 
* 



******/ 

/* 

★ 

* included files 



*/ 

#include <assert.h> 
#include "private. h" 



/* 

* private 

* « 

*/ 

Word32 power (Wordl6 module, Wordl6 beta, Wordl6 thd, Wordie val) ; 



/* 

* a_priori_signal_power 

★ 

*/ 

void a_priori_signal_power 
( 

/* IN */ Wordie *E, Wordie *internal_state, Wordie *max_noise, W 

ordie *long_tenn_noise, 

Wordie *f requential^scale, 

/* IN&OUT */ Wordie *alpha, 

/* OUT */ Word32 *P1, Word32 *P2 

) 

{ 

int vad; 

for(vad = 0; vad < param, vad^number ; vad++) { 

int start = param, vads [ vad] , f irst_subband_f or_power ; 

int stop = param. vads [vad] . last_subband; 

int subband; 

int unif orm_subbahd; 

uniform subband =1; 
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for(subband = start; subband <= stop; subband++) 

if (param.subband^size [subband] != parcun. subband_-size [start] 

) 

uniform_subband =0; 

Pl[vad] = 0; move32(); 
P2[vad] = 0; move32(); 

testO; if (sub(internal_state [vad] , NOISE) == 0) { 
for (subband = start; subband <= stop; subband++) { 
Word32 pwr; 
Wordie shift; 
Wordie module; 
Wordie alpha_long_tenn; 

alpha_long_term = shr (max_noise [subband] , 2); movelSO; 
testO; testO; if (sub (alpha_long_term, long_tenn_noise [ 
subband] ) >= 0) { 

alpha [subband] = 0x7fff; movel6(); 

alpha_long_tenn = long_tenii_noise [subband] ; movel6(); 
} else if (sub {max_noise [subband] , long_tenn_noise [subban 



d] ) < 0) { 
vel6() ; 



alpha [subband] = 0x2000; movel6(); 

alpha_long_term = shr (long_tenn_noise [subband] , 2) ; mo 



} else { 

alpha [subband] = div_s (alpha_long_tenn, long_term_noi 
se [subband] ) ; movel6(); 
} 

module = sub (E [subband] , shl (alpha_long_term, 2)); movel 

6() ; 

if (uniform^subband) { 

shift = shl (frequent ial_scale[ subband] , 1); movel6(); 
} else { 

shift = add (param.subband_shift [subband] , shKfrequen 
tial_scale [subband] , 1)); movel6(); 
} 

pwr = power (module, param.beta_a_prioril, long_term_nois 
e [subband] , long_term_noise [subband] ) ; 

pwr = L_shr (pwr, shift) ; 

PI [vad] * L_add(Pl[vad] , pwr); move32(); 

pwr = power (module, param.beta_a_priori2, long_term_nois 
e [subband] , long_term_noise [subband] ) ; 

pwr = L_shr(pwr, shift); 

P2[vad] ^ L_add(P2 [vad] , pwr); move32(); 

} 

} else { 

for (subband = start; subband stop; subband++) { 
Word32 pwr; 
Wordl6 shift; 
Wordl6 module; 
Wordie alpha_long_term; 

alpha_long_term = mult (alpha [subband] , long_term_noise [s 



ubband] ) ; move 16 ( ) ; 

module = sub (E [subband] , shl (alpha_long term, 2)); movel 

6 ( ) ; , 

if (uniform_subband) { 

shift = shl (frequent ial_scale [subband] , 1); movel6(); 
} else { 

shift = add (param. subband_shif t [subband] , shl(frequen 
tial_scale [subband] , 1)); movel6{); 
) 

pwr = power (module, param.beta_a_prioril, long_term_nois 
e [subband] , E [subband] ) ; 

pwr = L_shr(pwr, shift); 

Pl[vad] = L_add(Pl [vad] , pwr); move32{); 

pwr = power (module, param,beta_a_priori2, long_term_nois 
e [subband] , E [subband] ) ; 

pwr = L_shr(pwr, shift); 

P2[vad] = L_add(P2 [vad] , pwr); inove32(); 

} 

} 

} 

} 

/* 

* power 

★ ^ 

*/ 

Word32 power (Wordie module, WordlS beta, WordlS thd, WordlS val) 
{ 

Word32 power; 

testO; if (sub (module, mult (beta, thd)) <- 0) { 
WordlS hi, lo; 

power = L_mult(val, val); move32(); 

L_Extract (power, &hi, &lo) ; 

power = Mpy_32_16 (hi, lo, beta); move32(); 

L_Extract (power, &hi, &lo) ; 
power = Mpy_32_16 (hi, lo, beta); move32(); 
} else { 

power = L_mult (module, module); move32(); 

) 

return (power) ; 

} 



-15- 
AN NEXE 2 



/★*★★★★★******★***************************************** ********* * 

* description 

* NSS module: 

* VAD 
★ 

******************************************************************* 

/* 

* 

* included files 

★ — — — — — 

*/ 

#include <assert,h> 
#inclucie "private. h" 
# include "simutool .h" 



/* 

* private 

*• — — • 

*/ 

#define DELTA_P 
#define D_NOISE 
#define D_SIGNAL 
#define SNR_SIGNAL 
tdefine SNR_NOISE 



/* 

* voice_activity_detector 



*/ 

void voice_activity_detector 

/* IN */ Word32 *P1, Word32 *P2, Wordl6 f rame_counter, 

/* IN&OUT */ Word32 *Pls, Word32 *P2s, Wordl6 *internal_state, 

/* OUT */ Wordie *state 

) 

{ 

int vad; 

int signal; 

int noise; 



(1.6 * 1024) 
(.2 * 1024) 
{,2 * 1024) 
(.5 * 1024) 
(.2 * 1024) 
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signal =0; movel6(); 
noise « 1; movel6{); 

for(vad = 0; vad < param. vad_nuinber ; vad++) { 
Wordi6 snr, d; 
Wordie logPl, logPls; 
Wordie logP2r logP2s; 

logP2 = logf ix (P2 [vad] ) ; movel6(); 
logP2s — logf ix {P2s [vad] ) ; movel6(); 

testO; if (L_sub(P2[vad], P2s [vad] ) > 0) { 
Wordie hil, lol; 
Wordl6 lii2, lo2; 

L^Extract {L_sub(Pl[vad] , Pis [vad] ) , &hil, &lol) ; • 
L_Extract (L_sub{P2 [vad] , P2s [vad] ) , &hi2, &lo2); 

testO; if (sub(sub(logP2, logP2s), DELTA_P) <0) { 

Pls[vad] = L_add(Pls[vad] , L_shr (Mpy_32_16 (hil, lol, 0x6 
666) , 4) ) ; move32 () ; 

P2s[vad] « L_add(P2s[vad] , L_shr (Mpy_32_16 (hi2, lo2, 0x6 
666) , 4) ) ; move32 () ; 
} else { 

Pls[vad] = L_add(Pls[vad] , L_shr (Mpy_32_16 (hil, lol, 0x6 
8db) , 13) ) ; move32 () ; 

P2s[vad] « L_add(P2s[vad] , L_shr (Mpy_32_16 (hi2, lo2, 0x6 
8db) , 13) ) ; move32() ; 
} 

} else { 

Pis [vad] = PI [vad]; move32(); 
P2s[vad] = P2 [vad] ; move32(); 

} 



logPl = logf ix (PI [vad] ) ; movel6(); 
logPIs = logf ix (Pis [vad] ) ; movel6(); 



d = subdogPl, logP2) ; niovel6(); 
snr = subdogPl, logPIs) ; movel6(); 

ProbeFixl6("d", &d, 1, 1.); 
ProbeFixie ("_snr", &snr, 1, 1.); 

Wordl6 pp; 

ProbeFixl6{"pl", &logPl, 1, 1.); 
ProbeFixl6("p2", &logP2, 1, 1.); 
ProbeFixl6 ("pis", &logPls, 1, 1.); 
ProbeFixl6 ("p2s", &logP2s, 1, 1.); 
pp = logP2 " logP2s; 
ProbeFixl6 ("dp", &pp, 1, 1.); 
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test () ; if (sub(internal_state[vaci] , 

goto LABEL_NOISE; 

test () ; if {sub{internal_state[vad] , 

goto LABEL_ASCENT; 

test 0 ; if (sub {internal_state [vad] , 

goto LABEL_SIGNAL; 

test 0 ; if (sub (internal_state [vad] , 

goto LABEL_DESCENT; 



NOISE) 0) 
ASCENT) 0) 



SIGNAL) 



0) 



DESCENT) ^= 0) 



LABEL_NOISE: 

testO; if (sub (d, D_NOISE) < 0) { 

internal_state [vad] = ASCENT; movel6(); 

} 

goto LABEL_END_VAD; 
LABEL_ASCENT : 

testO; if (sub (d, D^SIGNAL) < 0) { 

internal_state [vad] = SIGNAL; movel6(); 
signal =1; movel6(); 
noise = 0; movel6(); 

} else { 

internal_state[vad] = NOISE; movel6(); 

} 

goto LABEL_END_VAD; 
LABEL_SIGNAL: 

testO; if(sub(snr, SNR^SIGNAL) < 0) [ 

internal_state [vad] = DESCENT; movelSC); 

} else { 

signal ~ 1; movel6{); 

} 

noise = 0; movel6(); 
goto LABEL_END_VAD; 

LABEL_DESCENT : 

testO; if(sub(snr, SNR_NOISE) < 0) { 

internal_5tate [vad] « NOISE; movel6(); 
} else { 

internal_state [vad] = SIGNAL; movel6(); 
signal - 1; movel6(); 
noise « 0; movel6(); 

} 

goto LABEL_END_VAD; 



LABEL_END_VAD: 
; 

} 

*state = TRANSITION; movel6(); 
testO; testO; if (signal 0) { 

testO; if (sub (frame_counter, param, init_f rame_number ) >= 0) { 
for (vad ==0; vad < param. vad^number ; vad++) { 
internal_state [vad] = SIGNAL; movel6(); 

} 

♦state SIGNAL; iaovel6(); 

} 



else if (noise != 0) { 
*state = NOISE; movel6() 



PdPes a\/ar»£ rectification 
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REVEN DICATIONS 

1. Precede de detection d'activite vocals dans un signal de parole 
numerique (s) dans au moins une bande de frequences, caracterise en ce 
qu'on detecte I'activite vocale sur la base d'une analyse comprenant une 

5 comparaison, dans ladite bande de frequences, de deux versions differentes 
du signal de parole dont I'une au moins est une version debruitee. 

2. Precede selon la revendication 1, dans lequel ladite comparaison 
porte sur des energies respectives (E^ ^j, E2_n,j). evaluees dans ladite bande 
de frequences, des deux versions differentes du signal de parole, ou sur une 

1 0 fonction monotone desdites energies. 

3. Precede selon la revendication 1 ou 2, dans lequel ladite analyse 
comprend en outre un lissage temporel de I'energie (E^ ^j) d'une desdites 
versions du signal de parole, et une comparaison entre I'energie de ladite 
version et I'energie lissee ( E-j ^.j )• 

15 4. Precede selon la revendication 3, dans lequel la comparaison entre 

I'energie de ladite version (E^ nj) et I'energie lissee (Ein,j) controle les 

transitions d'un automate de detection d'activite vocale d'un etat de parole vers 
un etat de silence, tandis que la comparaison des deux versions differentes du 
signal de parole controle les transitions de I'automate de detection de I'etat de 
20 silence vers I'etat de parole. 

5. Precede selon I'une quelconque des revendications 1 a 4, dans 

lequel les deux versions differentes du signal de parole sont deux versions 
debruitees par soustraction spectrale non-lineaire, une premiere des deux 
versions (Epm.i) etant debruitee de fagon a ne pas etre inferieure, dans le 
25 domaine spectral, a une premiere fraction 01 j) d'une estimation a long terme 
(Bnj) representative d'une composante de bruit comprise dans le signal de 
parole, et ia seconds des deux versions (Ep2,n.i) etant debruitee de fapon a ne 
pas etre inferieure, dans le domaine spectral, a une seconde fraction (P2j) de 
ladite estimation a long terme, plus grande que la premiere fraction. 



-20- 

6. Procede selon la revendication 5, dans lequel on effectue un lissage 
temporel de Tenergie de chacune des deux versions du signal de parole, au 
moyen d'une fenetre de lissage determinee en comparant Tenergie (E2 nj) 

la seconde des deux versions a Tenergie lissee ( E2,nj) de la seconde des deux 

5 versions. 

7. Procede selon la revendication 6, dans lequel la fenetre de lissage 
est une fenetre exponentielle definie par un facteur rfoubli (X), 

8. Procede selon la revendication 7, dans lequel le facteur d'oubli (X) a 
une valeur {X^) sensiblement nulle lorsque Tenergie (E2 nj) de la seconde des 

10 deux versions est inferieure a une valeur de Tordre de Tenergie lissee (E2,nj) 

de la seconde des deux versions. 

g. Procede selon la revendication 8, dans lequel le facteur d'oubli (X) a 

une premiere valeur (X^) sensiblement egale a 1 lorsque Tenergie (E2 nj) de la 

seconde des deux versions est superieure a ladite valeur de Fordre de Tenergie 
15 lissee multipliee par un coefficient (A) plus grand que 1, et une seconde valeur 
(Xp) comprise entre 0 et ladite premiere valeur lorsque Tenergie de la seconde 

des deux versions est superieure a ladite valeur de Tordre de Tenergie lissee et 
inferieure a ladite valeur de Tordre de Tenergie lissee multipliee par ledit 
coefficient. 

20 10. Procede selon Tune quelconque des revendications 5 a 9. dans 

lequel les premiere et seconde fractions (|31j. p2j) correspondent sensiblement 

a des attenuations de 10 dB et de 60 dB, respectivement. 

11. Procede selon Tune quelconque des revendications 1 a 10, dans 

lequel la comparaison des deux versions differentes du signal de parole porte 
25 sur des differences respectives entre les energies (E^ pj. ^2,nj^ ^® deux 
versions dans ladite bande de frequences et un minorant (Eg^inj) de I'energie 
(Ej n j) de la version debruitee du signal de parole dans ladite bande de 
frequences. 
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12. Precede selon la revendication 11, dans lequel Tune des deux 
versions differentes du signal de parole est une version non debruitee du signal 
de parole. 

13. Dispositif de detection d'activite vocale dans un signal de parole, 
comprenant des moyens de traitement de signal (15) agences pour mettre en 
oeuvre un precede selon Tune quelconque des revendications 1 a 12. 

14. Programme tfordinateur, chargeable dans une memoire associee a 
un processeur, et comprenant des portions de code pour la mise en oeuvre 
d'un precede selon Tune quelconque des revendications 1 a 12 lors de 
r execution dudit programme par le processeur. 

1 5. Support informatique, sur lequel est enregistre un programme selon 
la revendication i4. 
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dues a la parole. Le facteur reste toutefois legerement inferieur a 1 pour 

eviter les erreurs causees par une augmentation du bruit de fond pouvant 
survehir pendant une assez longue periode de parole. 

Uautomate de detection d'activite vocale est controle notamment par 
5 un parametre resultant d'une comparaison des energies E-i n j et E2,n,j- ^® 
parametre peut notamment etre le rapport d^ j = E-^ j/E2 p j. On voit sur la 
figure 5 que ce rapport d^j permet de bien detecter les phases de parole 

(representees par des hachures). 

Le controle de Tautomate de detection peut egalement utiliser d'autres 
10 parametres, tels qu'un parametre lie au rapport signal-sur-bruit : 
snr^ j = E^ j/Ei n j, ce qui revient a prendre en compte une comparaison entre 

les energies E-, pj et E^.n.j- Le module 21 de controle des automates relatifs 

aux differentes bandes d'index j calcule les parametres dp j et snr^^ j a Tetape 

210, puis determine Tetat des automates. Le nouvel etat S^ j de I'automate 

15 reiatif a la bande j depend de Tetat precedent 5p_-j j, de d^ j et de snr^ j, par 

exemple comme indique sur le diagramme de la figure 6. 

Quatre etats sont possibles : 5 j = 0 detecte le silence, ou absence de 

parole ; 5j=2 detecte la presence d'une activite vocale ; et les etats 6j = 1 et 

5j = 3 sont des etats intermediaires de montee et de descente. Lorsque 

20 I'automate est dans Tetat de silence (5p.^ j = 0), il y reste si d^j depasse un 
premier seuil a1j, et 11 passe dans I'etat de montee dans le cas contraire. Dans 
I'etat de montee (5p.-| j =1), il revient dans I'etat de silence si d^ j depasse un 
second seuil a2j ; et il passe dans I'etat de parole dans le cas contraire. 
Lorsque I'automate est dans I'etat de parole (5p_-| j = 2). il y reste si snr^j 

25 depasse un troisieme seuil a3j. et il passe dans Tetat de descente dans le cas 

contraire. Dans I'etat de descente (5^,^ j " 3), {'automate revient dans I'etat de 

parole si snr^ j depasse un quatrieme seuil a4j, et il revient dans Tetat de 

silence dans le cas contraire. Les seuils alj, a2j, a3j et a4j peuvent etr« 

optimises separement pour chacune des bandes de frequences j. 
30 II est egalement possible que le module 21 fasse interagir les 

automates relatifs aux differentes bandes. 

En particulier, il peut Torcer a Tetat de parole les automates relaiiTS a 



J 
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REVENDICATIONS 

1. Procede de detection d'activite vocale dans un signal de parole 
numerique (s) dans au moins une bande de frequences, caracterise en ce 
qu'on detecte Tactivite vocale sur la base d'une analyse comprenant une 

5 comparaison, dans ladite bande de frequences, de deux versions differentes 
du signal de parole dont Tune au moins est une version debruitee, 

2. Procede selon la revendication 1, dans lequel ladite comparaison 
porte sur des energies respectives (E-i^n,j» ^2,nj)' ^v^'uees dans ladite bande 
de frequences, des deux versions differentes du signal de parole, ou sur une 

10 fonction monotone desdites energies. 

3. Procede selon la revendication 1 ou 2, dans lequel ladite analyse 
comprend en outre un lissage temporel de Tenergie (E-i pj) d'une desdites 
versions du signal de parole, et une comparaison entre Tenergie de ladite 
version et Tenergie lissee ( E-i nj). 

15 4. Procede selon la revendication 3, dans lequel la comparaison entre 

renergie de ladite version (E^ ^j) et I'energie lissee (E-inj) controle les 

transitions d'un automate de detection d'activite vocale d'un etat de parole vers 
un etat de silence, tandis que la comparaison des deux versions differentes du 
signal de parole controle les transitions de ('automate de detection de Tetat de 
20 silence vers Tetat de parole. 

5. Procede selon Tune quelconque des revendications 1 a 4, dans 

lequel les deux versions differentes du signal de parole sont deux versions 
debruitees par soustraction spectrale non-lineaire, une premiere des deux 
versions (Ep-j^n.i) ^^^^^ debruitee de fagon a ne pas etre inferieure. dans le 

25 domaine spectral, a une premiere fraction (31 j) d'une estimation a long terme 
(Bn,i) representative d'une composante de bruit comprise dans le signal de 
parole, et la seconde des deux versions (Ep2.n.i) ^tant debruitee de fagon a ne 
pas etre inferieure, dans le domaine spectral, a une seconde fraction (p2j) de 

ladite estimation a long terme, plus petite que la premiere fraction. 
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REVENDICATIONS 

1. Precede de detection d'activite vocale dans un signal de parole 
numerique (s) dans au moins une bande de frequences, caracteris§ en ce 
qu'on detecte I'activite vocale sur la base d'une analyse comprenant une 

5 comparaison, dans ladite bande de frequences, de deux versions differentes 
du signal de parole dont I'une au moins est une version d^bruitee obtenue en 
tenant compte d'estimations du bruit compris dans le signal. 

2. Precede selon la revendication 1, dans lequel ladite comparaison 
porta sur des energies respectives (E^ ^j. Es^nj). evaluees dans ladite bande 

10 de frequences, des deux versions differentes du signal de parole, ou sur une 
fonction monotone desdites Energies. 

3. Precede selon la revendication 1 ou 2, dans lequel ladite analyse 
comprend en outre un lissage temporel de I'energie (E-|_nj) d'une desdites 
versions du signal de parole, et une comparaison entre I'energie de ladite 

15 version et I'energie lissee(Ei,n,j )• 

4. Precede selon la revendication 3, dans lequel la comparaison entre 
I'energie de ladite version (E^ n j) et I'energie lissee (Ei,n,i) contrdle les 
transitions d'un automate de detection d'activite vocale d'un etat de parole vers 
un §tat de silence, tandis que la comparaison des deux versions differentes du 

20 signal de parole contrdle les transitions de I'automate de detection de I'etat de 
silence vers I'etat de parole. 

5 Precede selon I'une quelconque des revendications 1 a 4, dans 

lequel les deux versions differentes du signal de parole sent deux versions 
debruitees par soustraction spectrale non-lineaire, une premiere des deux 

25 versions (Epi.n,i) etant debruitee de fa<?on a ne pas §tre inferieure. dans le 
domaine spectral, a une premiere fraction (pij) d'une estimation a long terme 
(Bni) representative d'une composante de bruit comprise dans le signal de 
parole, et la seconde des deux versions (Ep2.n.i) etant debruitee de fafon a ne 
pas fetre inferieure, dans le domaine spectral, a une seconde fraction (p2j) de 

30 ladite estimation a long terme. plus petite que la premiere fraction. 



